Explorando arquiteturas multi-core para processamento eficiente de consultas em sistemas de gerência de Big Data
نویسندگان
چکیده
Big Data Management Systems usually manage each machine as one node in parallel query processing pipeline. In multi-core architectures, they leave several processor cores aside that could contribute to speed-up query processing. In this context, this paper explores the use of all available processor cores, assessing the query processing performance in several scenarios. In particular, we use the concept of worker nodes (which are allocated in cores without disk access) and data nodes (which are allocated in cores with disk access) in the same machine using the MyriaX engine as a base platform that supports this concept. We evaluate several cluster configurations varying the amount of data and worker nodes to process two types of queries (self-join and triangle) in a Twitter dataset. The results show that increasing the I/O parallelism in terms of data nodes is not always the most effective strategy. This reinforces the idea of using worker nodes in the query processing pipeline. In the best scenario, we achieved a speed-up of 2.92 by simply adding worker nodes in the available processing cores. Resumo. Sistemas de Gerência de Big Data, em geral, gerenciam cada máquina como um nó dentro do pipeline de processamento paralelo de consultas, deixando de lado núcleos de processador que poderiam contribuir para acelerar o processamento das consultas. Neste contexto, este artigo explora o uso de todos os núcleos de processador disponíveis, avaliando o desempenho de consultas em diversos cenários. Para isso, usamos o conceito de worker nodes (alocados a núcleos que não possuem acesso a disco) e data nodes (alocados em núcleos com acesso a disco) em uma mesma máquina, tendo como plataforma base o mecanismo MyriaX, que suporta este conceito. Avaliamos diversas configurações variando a quantidade de worker nodes e data nodes para dois tipos de consultas (auto-junção e triângulos) em dados do Twitter. Os resultados mostram que aumentar o paralelismo de I/O em termos de data nodes nem sempre é a estratégia mais eficaz, o que reforça a ideia da utilização de worker nodes no pipeline de processamento de consultas. No melhor caso, obtivemos aceleração de 2,92x com a simples adição de worker nodes em núcleos de processamento disponíveis.
منابع مشابه
SGProv: Mecanismo de Sumarização para Múltiplos Grafos de Proveniência
Resumo. Os Sistemas de Gerência de Workflows Científicos (SGWfC) têm o objetivo de automatizar a construção e execução de experimentos científicos. Várias execuções de workflows são necessárias para realizar um experimento. O rastro de proveniência, coletado pelos SGWfC durante estas execuções, é importante para que os cientistas possam compreender, reproduzir e analisar seus experimentos. Um r...
متن کاملRecomendações para fragmentação horizontal de bases de dados XML
Resumo. A grande quantidade de dados XML disponíveis na Web e dentro das organizações traz consigo um grande desafio no processamento de consultas sobre ambientes distribuídos. Surge então a necessidade da aplicação de técnicas que permitam um processamento de consultas mais eficiente. Neste sentido, técnicas de fragmentação de dados e processamento paralelo de consultas sobre bases de dados di...
متن کاملComparacao de desempenho na indexacao de big geospatial Data em ambiente de nuvem computacional
With the growth of spatial data volume, known as Big Geospatial Data, some tools have been developed to allow the processing of this data in an efficient way, but for this it is fundamental to index the databases. The cloud computing has computational power and several other characteristics that are adherent to the execution of this type of application. This paper presents an analysis of indexi...
متن کاملProcessamento de Consultas XML usando Máquinas de Inferência
Resumo. Processamento de consultas XML sobre grandes bases de dados pode sofrer de problemas de desempenho. Em trabalhos anteriores, mostramos que algumas consultas XML, quando executadas usando uma máquina de inferência, são processadas mais rapidamente do que sua equivalente em XQuery. No entanto, para se beneficiar desse bom desempenho, é necessário traduzir consultas XML para a linguagem ló...
متن کاملJunções Adaptativas em Consultas Federadas sobre Linked Data
Motivated by the success of Linked Data and driven by the growing number of data sources into RDF files available on the web, new challenges for query processing are emerging, especially in distributed settings. These environments allow distributed execution of federated queries, which involve joining data provided by multiple sources, which are often unstable. In this sense, the design of new ...
متن کامل